1. 长文本首字延时降低
2. Tuili serving 并发数要求
3. Tuili serving 功能完善性需求
4. Embedding 模型 私有化部署
- embedding 调用远程接口,我们只需要提供远程接口,基于 GPU/开源接口/OpenAI。
- [ ] 不能满足私有化部署的需求。
- [ ] 技术风险相对确定 ,在GPU serving 配置vllm embedding接口。
- 一体机加装一个GPU显卡专门支持 embedding,使用vllm支持。
- [ ] 需要考虑模型大小,bge-m3有3种size,最大的5.8亿参数,不一定都能支持,
- [ ] 不同显卡运行,可能有未知的坑。
- [ ] 技术风险不确定
- 墨芯卡 支持 bge-m3 需要做的事:
- [ ] 需要 编译 bge-m3 开源版本,需要有人比较长时间 投入embedding这个事,目前没有人分析这个事
- [ ] bankend 需要开发 embeding inference 接口,需要有人比较长时间 投入embedding这个事,目前没有人分析这个事
- [ ] tuili 开发 inference embedding 接口,我可以适配
- [ ] 墨芯卡需要支持 多模型运行,目前有bug,需要有人解决这个问题,难度大
- [ ] 此外,2卡支持 llm和embedding速度会很慢,用户不会满意。
- [ ] 技术风险不确定
6. Tuili serving 与 vllm/open ai 的功能对齐
LLM Infra 接口功能调研